import_data("johnny_depp")
NAs introduzidos por coerção
filmes = read_imported_data()

Descrição do Ator

Johnny Depp é um ator, músico, produtor de cinema e diretor americano muito conhecido por interpretar grandes personangens como o Capitão Jack Sparrow na franquia Piratas do Caribe, Edward Scissorhands do filme Edward mãos de tesoura, além de interpretar outros personagens famosos, como o bruxo das trevas Gellert Grindelwald em Animais Fantásticos e Onde Habitam, de 2016, e Animais Fantásticos: Os Crimes de Grindelwald de 2018, Willy Wonka em A Fantástica Fábrica de Chocolate e o Chapeleiro Maluco nos filmes Alice no País das Maravilhas e Alice através do Espelho.

Seus filmes de maior bilheteria foram a série Piratas do Caribe com um total de 4.524 bilhões de dólares, seguido pela franquia Animais Fantásticos e Onde Habitam com 1.457 bilhão, Alice no País das Maravilhas com 1.323 bilhão em receita global.Trata-se de um ator renomadisímo de Hollywood, com mais de 250 indicações a prêmios por seu trabalho, incluindo Oscars, Globo de Ouro e Screen Actors Guild.

Depp é um dos maiores e mais bem sucedidos atores de sua geração, juntamente com Brad Pitt, Will Smith, Robert Downey Jr., Tom Cruise e Leonardo DiCaprio. o artista conta com uma imensidão de filmes em seu currículo. Aqui neste post trabalhamos com uma amostra de 29 filmes coletados pelo Rotten Tomatoes.

Bilheteria por ano

Podemos perceber que a maioria dos filmes alcançaram uma bilheteria até 200 milhoes de dólares. Mas não foram poucos os filmes que despontaram em bilheteria, a frânquia de Piratas do caribe, rendeu uma boa grana ao Capitão Jack Sparrow.

p = filmes %>% 
    ggplot(aes(x = ano, y = bilheteria, label=filme)) + 
    geom_point(color = paleta[2], size = 4)
ggplotly(p)

O gráfico abaixo reforça a ideia de que a maioria dos filmes estrelados por Johnny Depp não obteve tanto sucesso quanto a frânquia de Piratas do caribe. O único filme que chegou próximo foi, Alice no país das maravilhas. Algo a ser considerado nesta base de dados é que o filme mais recente analisado é de 2017 e que de lá pra cá o Ator ja estrelou em outros grandes filmes que renderam bilheterias estrondosas, como por exemplo: ALICE ATRAVÉS DO ESPELHO e ANIMAIS FANTÁSTICOS E ONDE HABITAM.

filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(binwidth = 15, fill = paleta[4], color = "white")+
    ylab("Quantidade")

E a avaliação geral dos filmes ???

Levando em consideração uma escala de 0-100, 18 dos 29 filmes citados em nossa base de dados tiveram uma avaliação positiva (considerando que positivo seria uma avaliação acima de 5). O filme com a melhor avaliação foi Deep Sea, seguido de GOnzo e Rango, que não foram filmes que renderam uma bilheteria muito alta, mas pra quem foi e assistiu, podemos ter certeza que não se arrependeram.

filmes %>% 
    ggplot(aes(x = reorder(filme,avaliacao), y=avaliacao, fill = paleta[4], color = "white")) + 
    geom_point(show.legend = FALSE)+
    coord_flip()+
    labs(x="Filme", y="Avaliação")

filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(binwidth = 10, boundary = 0, fill = paleta[4], color = "white") + 
    geom_rug(size = .5)+
    ylab("Quantidade")

Nem sempre bilheteria é sinônimo de boas avaliações !!

bilheteria_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(bilheteria_mediana=median(bilheteria))
avaliacao_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(avaliacao_mediana=median(avaliacao))
p = bilheteria_ano %>% 
    ggplot(aes(x=ano, y=bilheteria_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")
p2 = avaliacao_ano %>% 
    ggplot(aes(x=ano, y=avaliacao_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")
ggplotly(p)

ggplotly(p2)

Estrutura de grupos?

m_transformado = filmes %>% 
    mutate(bilheteria_log = as.vector(scale(log10(bilheteria))), 
           avaliacao_scaled = as.vector(scale(avaliacao)))
summary(m_transformado %>% select(bilheteria_log, avaliacao_scaled))
 bilheteria_log    avaliacao_scaled  
 Min.   :-2.5870   Min.   :-1.85100  
 1st Qu.:-0.3505   1st Qu.:-0.96059  
 Median : 0.1808   Median : 0.05702  
 Mean   : 0.0000   Mean   : 0.00000  
 3rd Qu.: 0.5830   3rd Qu.: 0.73543  
 Max.   : 1.4119   Max.   : 1.49864  
plot_clusgap = function(clusgap, title = "Gap Statistic calculation results") {
    require("ggplot2")
    gstab = data.frame(clusgap$Tab, k = 1:nrow(clusgap$Tab))
    p = ggplot(gstab, aes(k, gap)) + geom_line() + geom_point(size = 5)
    p = p + geom_errorbar(aes(ymax = gap + SE.sim, ymin = gap - SE.sim), width = .2)
    p = p + ggtitle(title)
    return(p)
}
gaps <- m_transformado %>% 
    select(bilheteria_log, avaliacao) %>% 
    clusGap(FUN = kmeans, nstart = 20, K.max = 8, B = 200)
Clustering k = 1,2,..., K.max (= 8): .. done
Bootstrapping, b = 1,2,..., B (= 200)  [one "." per sample]:
.................................................. 50 
.................................................. 100 
.................................................. 150 
.................................................. 200 
plot_clusgap(gaps)

set.seed(12345)
n_clusters = 5
# O agrupamento de fato:
cluster = m_transformado %>% 
    select(bilheteria_log, avaliacao_scaled) %>% 
    kmeans(centers = n_clusters, nstart = 20)
agrupado = cluster %>% 
    augment(m_transformado)
#p = agrupado %>% 
#    ggplot(aes(x = avaliacao_scaled, y = bilheteria_log, color = .cluster))  + 
#    geom_point(size = 3)
p1 = agrupado %>% 
    ggplot(aes(x = avaliacao, y = bilheteria, color = .cluster, label=filme))  + 
    geom_point(size = 3)+
    scale_y_log10()
ggscatter(agrupado, x="avaliacao", y="bilheteria", color=".cluster")+
    stat_chull(aes(fill = .cluster), alpha=0.3, geom="polygon")+
    xlab("Avaliação")+
    ylab("Bilheteria")

ggplotly(p1)
---
title: "Tipos de filme de Johnny Depp"
author: "Igor Matheus Castor Diniz Pinheiro"
output:
    html_document:
        df_print: paged
        toc: yes
        toc_float: yes
    html_notebook:
        toc: yes
        toc_float: yes
theme: sandstone
---

```{r echo=FALSE, message=FALSE, warning=FALSE}
library(tidyverse)
library(here)
library(cluster)
library(plotly)
library(ggdendro)
library(broom)
library(ggpubr)

source(here::here("code/lib.R"))
theme_set(theme_report())

knitr::opts_chunk$set(tidy = FALSE,
                      fig.width = 6,
                      fig.height = 5,
                      echo = TRUE)

paleta = c("#404E4D",
           "#92DCE5",
           "#938BA1",
           "#2D3142",
           "#F4743B")
```

```{r}
import_data("johnny_depp")
```


```{r read}
filmes = read_imported_data()
```

# Descrição do Ator

Johnny Depp é um ator, músico, produtor de cinema e diretor americano muito conhecido por interpretar grandes personangens como o Capitão Jack Sparrow na franquia Piratas do Caribe, Edward Scissorhands do filme Edward mãos de tesoura, além de interpretar outros personagens famosos, como o bruxo das trevas Gellert Grindelwald em Animais Fantásticos e Onde Habitam, de 2016, e Animais Fantásticos: Os Crimes de Grindelwald de 2018, Willy Wonka em A Fantástica Fábrica de Chocolate e o Chapeleiro Maluco nos filmes Alice no País das Maravilhas e Alice através do Espelho.

Seus filmes de maior bilheteria foram a série Piratas do Caribe com um total de 4.524 bilhões de dólares, seguido pela franquia Animais Fantásticos e Onde Habitam com 1.457 bilhão, Alice no País das Maravilhas com 1.323 bilhão em receita global.Trata-se de um ator renomadisímo de Hollywood, com mais de 250 indicações a prêmios por seu trabalho, incluindo Oscars, Globo de Ouro e Screen Actors Guild. 

Depp é um dos maiores e mais bem sucedidos atores de sua geração, juntamente com Brad Pitt, Will Smith, Robert Downey Jr., Tom Cruise e Leonardo DiCaprio. o artista conta com uma imensidão de filmes em seu currículo. Aqui neste post trabalhamos com uma amostra de 29 filmes coletados pelo Rotten Tomatoes. 

## Bilheteria por ano

Podemos perceber que a maioria dos filmes alcançaram uma bilheteria até 200 milhoes de dólares. Mas não foram poucos os filmes que despontaram em bilheteria, a frânquia de Piratas do caribe, rendeu uma boa grana ao Capitão Jack Sparrow. 

```{r}

p = filmes %>% 
    ggplot(aes(x = ano, y = bilheteria, label=filme)) + 
    geom_point(color = paleta[2], size = 4)

ggplotly(p)

```

O gráfico abaixo reforça a ideia de que a maioria dos filmes estrelados por Johnny Depp não obteve tanto sucesso quanto a frânquia de Piratas do caribe. O único filme que chegou próximo foi, Alice no país das maravilhas. Algo a ser considerado nesta base de dados é que o filme mais recente analisado é de 2017 e que de lá pra cá o Ator ja estrelou em outros grandes filmes que renderam bilheterias estrondosas, como por exemplo: ALICE ATRAVÉS DO ESPELHO e ANIMAIS FANTÁSTICOS E ONDE HABITAM.

```{r}
filmes %>% 
    ggplot(aes(x = bilheteria)) + 
    geom_histogram(binwidth = 15, fill = paleta[4], color = "white")+
    ylab("Quantidade")
```

## E a avaliação geral dos filmes ???

Levando em consideração uma escala de 0-100, 18 dos 29 filmes citados em nossa base de dados tiveram uma avaliação positiva (considerando que positivo seria uma avaliação acima de 5). O filme com a melhor avaliação foi Deep Sea, seguido de GOnzo e Rango, que não foram filmes que renderam uma bilheteria muito alta, mas pra quem foi e assistiu, podemos ter certeza que não se arrependeram.

```{r}
filmes %>% 
    ggplot(aes(x = reorder(filme,avaliacao), y=avaliacao, fill = paleta[4], color = "white")) + 
    geom_point(show.legend = FALSE)+
    coord_flip()+
    labs(x="Filme", y="Avaliação")

filmes %>% 
    ggplot(aes(x = avaliacao)) + 
    geom_histogram(binwidth = 10, boundary = 0, fill = paleta[4], color = "white") + 
    geom_rug(size = .5)+
    ylab("Quantidade")
```

## Nem sempre bilheteria é sinônimo de boas avaliações !!

```{r}
bilheteria_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(bilheteria_mediana=median(bilheteria))

avaliacao_ano = filmes %>% 
    group_by(ano) %>% 
    summarise(avaliacao_mediana=median(avaliacao))

p = bilheteria_ano %>% 
    ggplot(aes(x=ano, y=bilheteria_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")

p2 = avaliacao_ano %>% 
    ggplot(aes(x=ano, y=avaliacao_mediana))+
    geom_line(color=paleta[2])+
    geom_point(color="red")

ggplotly(p)
ggplotly(p2)

```


## Estrutura de grupos?

```{r}
m_transformado = filmes %>% 
    mutate(bilheteria_log = as.vector(scale(log10(bilheteria))), 
           avaliacao_scaled = as.vector(scale(avaliacao)))

summary(m_transformado %>% select(bilheteria_log, avaliacao_scaled))
```

```{r}
plot_clusgap = function(clusgap, title = "Gap Statistic calculation results") {
    require("ggplot2")
    gstab = data.frame(clusgap$Tab, k = 1:nrow(clusgap$Tab))
    p = ggplot(gstab, aes(k, gap)) + geom_line() + geom_point(size = 5)
    p = p + geom_errorbar(aes(ymax = gap + SE.sim, ymin = gap - SE.sim), width = .2)
    p = p + ggtitle(title)
    return(p)
}

```

```{r}
gaps <- m_transformado %>% 
    select(bilheteria_log, avaliacao) %>% 
    clusGap(FUN = kmeans, nstart = 20, K.max = 8, B = 200)

plot_clusgap(gaps)
```

```{r}
set.seed(12345)
n_clusters = 5

# O agrupamento de fato:
cluster = m_transformado %>% 
    select(bilheteria_log, avaliacao_scaled) %>% 
    kmeans(centers = n_clusters, nstart = 20)

agrupado = cluster %>% 
    augment(m_transformado)

#p = agrupado %>% 
#    ggplot(aes(x = avaliacao_scaled, y = bilheteria_log, color = .cluster))  + 
#    geom_point(size = 3)

p1 = agrupado %>% 
    ggplot(aes(x = avaliacao, y = bilheteria, color = .cluster, label=filme))  + 
    geom_point(size = 3)+
    scale_y_log10()

ggscatter(agrupado, x="avaliacao", y="bilheteria", color=".cluster")+
    stat_chull(aes(fill = .cluster), alpha=0.3, geom="polygon")+
    xlab("Avaliação")+
    ylab("Bilheteria")

ggplotly(p1)


```





